lien de la base : https://www.kaggle.com/datasets/vanpatangan/divorce-prediction

1 - Introduction

Le mariage est souvent perçu comme l’union d’une union durable, symbolisant l’engagement et la stabilité dans la vie d’un couple. Pourtant, dans de nombreux contextes, les mariages connaissent des trajectoires variées : certains dure toute une vie, d’autre se terminent plus rapidement par un divorce. Ce phénomène est particulièrement intéressant à observer lorsque celui-ci repose sur un mariage arrangé, qui repose sur des dynamiques sociales et familiales différentes de celles d’un mariage romantique. Ces unions peuvent parfois révéler des différences profondes entre les partenaires ou faire émerger des schémas de relations complexes, voire toxiques.

Dans le cadre de cette étude, nous utilisons une base de données synthétique portant sur des mariages arrangés afin d’examiner la durée de ces unions et les facteurs susceptibles d’influencer leur stabilités. L’Analyse de Survie constitue ici un outil pertinent pour modéliser le temps écoulé entre le mariage et le divorce afin de mieux comprendre la distribution temporelle des ruptures.

Cette analyse est surtout pertinente d’un point de vue sociologique, permet de mieux comprendre les dynamiques relationnelles qui conduisent à la stabilité ou à la rupture d’un mariage. Étudier la durée d’un mariage et les facteurs associés au divorce éclaire notamment des notions essentielles comme la confiance, la communication, la gestion des conflits ou l’évolution des attentes au sein du couple. Comprendre ces mécanismes aide à mieux appréhender la manière dont les individus construisent ou parfois perdent un lien conjugal durable.

Elle présente également un intérêt social plus large : identifier les facteurs de fragilité permet de sensibiliser les couples, d’améliorer les dispositifs d’accompagnement et de renforcer la prévention. L’objectif n’est pas seulement d’anticiper une rupture, mais aussi de favoriser un environnement relationnel plus sain, où les partenaires disposent des ressources pour maintenir un mariage fondé sur la confiance, la solidarité et le respect mutuel.

1.1 Contexte et justification

La stabilité conjugale constitue un enjeu important sur les plans socia, démographique et psychologique. La durée d’un mariage influence notamment le bien-être des individus, le développement des enfants, mais aussi la structuration des familles et la cohésion sociale. À l’inverse, le divorce ou la séparation engendre des conséquences multiples : coûts émotionnels, réorganisation familiale, contraintes économiques ou fragilité psychologique.

Dans le cas des mariages arrangés, ces enjeux sont accentués par des dynamiques culturelles particulières, notamment le rôle de l’entourage, l’absence de choix conjugal initial ou la pression sociale. Étudier la durée de ces unions permet donc de mieux comprendre les mécanismes spécifiques qui favorisent la stabilité ou, au contraire, précipitent la rupture.

1.2 Problématique

Quels facteurs influencent la durée d’un mariage arrangé et la probabilité de divorce ou de séparation au fil du temps ? Comment des caractéristiques individuelles, familiales ou relationnelles peuvent-elles modifier le risque de rupture ?

Quels facteurs influencent la durée de mariage ?

2 Description et préparation des données

2.1 - Presentation des variables

Notre base de données comporte 5000 observations pour 22 variables. Sur les 22 variables, nous retrouvons près de 10 variables quantitatives pour 12 qualitatives. De plus, notre base de données ne comporte aucune valeurs manquantes, ce qui réduit la complexité des prétraitements des données et permet de déterminer directement l’analyse exploratoire. Le tableau ci-dessous synthétise la présentation ainsi que les types et sous-type de variables.

📊 Tableau des variables avec code couleur
Nom_de_la_variable Description Type Sous_type
age_at_marriage Âge au mariage Quantitative Discrète
marriage_duration_years Durée du mariage Quantitative Discrète
divorced Divorce (oui/non) Qualitative Binaire
num_children Nombre d’enfants Quantitative Discrète
education_level Niveau d’éducation Qualitative Ordinale
employment_status Statut professionnel Qualitative Nominale
combined_income Revenu combiné Quantitative Continue
religious_compatibility Compatibilité religieuse Qualitative Nominale
cultural_background_match Correspondance culturelle Qualitative Binaire
communication_score Score de communication Quantitative Continue
conflict_frequency Fréquence des conflits Quantitative Discrète
conflict_resolution_style Style de résolution de conflit Qualitative Nominale
mental_health_issues Problèmes de santé mentale Qualitative Binaire
financial_stress_level Niveau de stress financier Quantitative Continue
infidelity_occurred Infidélité survenue Qualitative Binaire
counseling_attended A suivi un counseling Qualitative Binaire
social_support Soutien social Quantitative Continue
shared_hobbies_count Nombre de hobbies partagés Quantitative Discrète
marriage_type Type de mariage Qualitative Nominale
pre_marital_cohabitation Cohabitation avant mariage Qualitative Binaire
domestic_violence_history Historique de violence domestique Qualitative Binaire
trust_score Score de confiance Quantitative Continue

2.2 - Boxplot des données Quantitatives & Histogrammes

L’analyse de la variable marriage_duration_years montre une distribution décroissante, avec la majorité des mariages ayant une durée relativement courte. Les effectifs diminuent progressivement lorsque la durée augmente. La durée minimale observée est de 1 ans, la maximale de 40 ans, et la médiane est de 6 ans. On remarque également quelques valeurs extrêmes entre 30 et 40 ans, qui sont isolées par rapport à la majorité des observations. Ces outliers peuvent refléter des cas particuliers de mariages très longs.

2.3 - Histogrammes des données Qualitatives

3 - Analyse de survie

Notre base de données comporte une variable temporelle de durée de survie caractérisé par :

  • marriage_duration_years : Mesure la Durée du mariage de l’individu.

De plus, nous introduisons une variable \(a\) correspondant à la borne inférieure de la variable de survie. Ici, pour marriage_duration_years, on a \(a = 1\). Cette formalisation permet d’unifier la notation et de clarifier les domaines de définition dans les développements théoriques ultérieurs.

On pose \(X\) la variable aléatoire de survenue de l’évènement d’intérêt, donc le divorce. On note donc les différentes fonctions de survie et leurs interprétations par le tableau suivant :

📊 Interprétation et définitions des fonctions de survie
Fonction Définition Durée_du_mariage
\(S(t)\) \(S(t) = \mathbb{P}(X \gt t) = e^{-H(t)} = e^{-\int_a^t h(u)\,du}\) Probabilité que le mariage dure ≥ t
\(H(t)\) \(H(t) = \int_a^t h(u)\,du = -\ln S(t)\) Risque cumulé de divorce jusqu’à t
\(h(t)\) \(h(t) = -\dfrac{S'(t)}{S(t)}\) Risque instantané de divorce à t

Nos données comportent une censure : certains individus n’ont pas encore connu l’événement d’intérêt, c’est à dire qu’ils sont toujours encore mariés. Cette information est déjà inscrite dans la base de données via la variable divorced, qui indique si l’individu est divorcé ou non que l’on note :

\[ \delta_i = \begin{cases} 1 & \text{si l'événement divorce est observé pour } i \\ 0 & \text{si l'observation n'est pas divorcé} \end{cases} \]

3.1 Censure

Soit \(X_i\) le temps de survie réel de l’individu \(i\) (durée jusqu’à l’événement d’intérêt, ici le divorce), et \(C_i\) la variable aléatoire du temps de censure, représentant le moment auquel l’individu quitte l’étude ou n’a pas encore subi l’événement.

La durée réellement observée pour chaque individu dépend du type de censure :

  • Censure à droite : \[ T_i = \min(X_i, C_i) \]
  • Censure à gauche : \[ T_i = \max(X_i, C_i) \]

3.1.1 Censure à droite

La censure à droite se produit lorsqu’un individu n’a pas encore subi l’événement d’intérêt (ici le divorce) au moment de sa dernière observation (\(X_i > C_i\)).
Les principaux types de censure à droite sont :

  • Type I (fixe) : tous les individus sont censurés au même moment prédéterminé.
  • Type II : l’étude s’arrête dès qu’un certain nombre d’événements est observé.
  • Type III (aléatoire) : le moment de censure varie d’un individu à l’autre, par exemple à cause de la fin de suivi variable, de pertes de vue ou d’arrêts de participation. Ce type est le plus courant dans les études observationnelles.

3.1.2 Censure à gauche

La censure à gauche se produit lorsque l’événement a eu lieu avant le début de l’observation, et on ne connaît que la borne supérieure du temps de survie (\(X_i < C_i\)).
Elle est beaucoup plus rare dans les études humaines et moins souvent traitée dans la littérature.

3.1.3 Censure par intervalle

Une censure par intervalle survient lorsqu’on sait seulement que l’événement s’est produit entre deux dates d’observation. Dans la pratique, elle est souvent convertie en censure à droite pour simplifier l’analyse.


Dans notre base de données, certains mariages n’ont pas abouti à un divorce au moment de la fin de l’étude, et le temps de suivi varie selon les individus.
On en déduit que les données présentent une censure à droite de type III (aléatoire).
On suppose que cette censure est non informative, c’est-à-dire indépendante de la probabilité de divorce, conformément aux hypothèses classiques des modèles de survie.

Dans ce contexte, la durée réellement observée pour chaque mariage est donnée par :

\[ T = \min(X, C) \]

3.2 - Estimateur de la Fonction de survie S(t)

Estimateur empirique de la fonction de survie :

\[ \hat{S}(t) = \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{1}_{\{t_i > t\}} \]

  • \(n\) = nombre total d’observations
  • \(t_i\) = temps jusqu’à l’événement pour l’individu \(i\)
  • \(\boldsymbol{1}_{\{t_i > t\}}\) = indicateur qui vaut 1 si l’individu n’a pas encore eu l’événement à \(t\), 0 sinon

Cet estimateur correspond simplement à la proportion d’individus encore mariés au temps \(t\).
Il suppose qu’il n’y a aucune donnée censurée, c’est-à-dire que tous les individus ont eu l’événement observé.

📊 Estimateur de survie sans censure, variance binomiale et intervalle de confiance plain à 95 %
Méthode Formule Description
Estimateur empirique de survie (sans censure) \(\hat{S}(t)=\frac{1}{n}\sum_{i=1}^{n}\mathbf{1}_{\{t_i\gt t\}}\) Dans le cas sans censure, Kaplan–Meier coïncide avec l’estimateur empirique de la fonction de survie.
Variance (loi binomiale, cas sans censure) \(\widehat{\text{Var}}[\hat{S}(t)] = \frac{\hat S(t) (1 - \hat S(t))}{n}\) Variance estimée selon la loi binomiale, adaptée aux données entièrement observées.
Intervalle de confiance plain à 95 % \(\text{IC}_{95\%}(t) = \hat S(t) \pm 1.96 \sqrt{\widehat{\text{Var}}[\hat S(t)]}\) Intervalle de confiance classique basé sur la variance binomiale.

3.3 - Estimateur avec censure (Kaplan-Meier)

L’estimateur de Kaplan-Meier découle de l’idée suivante : survivre après un temps \(t_n\) revient à être vivant juste avant \(t_n\) et ne pas subir l’événement à ce temps. Formellement, pour \(t_0 < t_1 < \dots < t_{n-1} < t_n\) :

La probabilité de survie jusqu’à \(t_n\) peut s’écrire en utilisant la règle de multiplication des probabilités :

\[ \mathbb{P}(X > t_n) = \mathbb{P}(X > t_1, X > t_2, \dots, X > t_n) \]

On introduit une récurrence : pour tout \(k \ge 1\),

\[ \mathbb{P}(X > t_k \mid X > t_{k-1}, \dots, X > t_1) = \mathbb{P}(X > t_k \mid X > t_{k-1}) \]

où l’égalité découle de l’indépendance conditionnelle induite par l’ordre croissant des temps.

Ainsi, par récurrence sur les indices \(k\) :

\[ \begin{aligned} \mathbb{P}(X > t_1, X > t_2, \dots, X > t_n) &= \mathbb{P}(X > t_1) \cdot \mathbb{P}(X > t_2 \mid X > t_1) \\ &\quad \cdot \mathbb{P}(X > t_3 \mid X > t_1, X > t_2) \cdots \mathbb{P}(X > t_n \mid X > t_1, \dots, X > t_{n-1}) \\ &= \mathbb{P}(X > t_1) \prod_{k=2}^{n} \mathbb{P}(X > t_k \mid X > t_{k-1}) \end{aligned} \]

On considère les temps d’événements distincts \(T_{(1)} < T_{(2)} < \dots < T_{(j)}\) (décès ou divorce observés) rangés par ordre croissant.
On définit \(T_{(0)} = 0\), la borne inférieure du temps (par exemple \(a=1\) pour la durée de mariage).

Ainsi, la probabilité de survie jusqu’au temps \(T_{(j)}\) peut s’écrire comme un produit de probabilités conditionnelles :

\[ \begin{aligned} \mathbb{P}(X > T_{(j)}) &= \prod_{k=1}^{j} \mathbb{P}(X > T_{(k)} \mid X > T_{(k-1)}) \end{aligned} \]

Pour chaque temps d’événement \(T_{(k)}\), on s’intéresse à la probabilité conditionnelle de subir l’événement à ce temps, sachant que l’individu était encore à risque juste avant :

\[ \mathbb{P}(X \le T_{(k)} \mid X > T_{(k-1)}) \]

Cette quantité représente la probabilité qu’un individu qui a « survécu » jusqu’à \(T_{(k-1)}\) subisse l’événement à \(T_{(k)}\).

En pratique, on dispose des données observées :

  • \(n_k\) = nombre d’individus encore à risque juste avant \(T_{(k)}\)
  • \(d_k\) = nombre d’événements observés à \(T_{(k)}\)

On peut alors estimer cette probabilité conditionnelle par :

\[ \hat{\mathbb{P}}(X \le T_{(k)} \mid X > T_{(k-1)}) = \frac{d_k}{n_k} \]

La probabilité de survivre au temps \(T_{(k)}\) est le complémentaire :

\[ \hat{q}_k = \hat{\mathbb{P}}(X \ge T_{(k)} \mid X > T_{(k-1)}) = 1 - \hat{\mathbb{P}}(X \le T_{(k)} \mid X > T_{(k-1)}) = 1 - \frac{d_k}{n_k} \]

Enfin, en remplaçant les probabilités conditionnelles dans le produit de survie, on obtient l’estimateur de Kaplan-Meier (ou produit-limite) :

\[ \hat{S}(t) = \prod_{T_{(k)} \le t} \hat{q}_k = \prod_{T_{(k)} \le t} \left( 1 - \frac{d_k}{n_k} \right) \]

Ainsi, l’estimateur de Kaplan-Meier corrige naturellement le biais dû à la censure et fournit une estimation non paramétrique de la fonction de survie.

📊 Estimateur de Kaplan-Meier, variance de Greenwood et intervalle de confiance log à 95 %
Méthode Formule Description
Kaplan-Meier \(\hat{S}(t) = \prod_{T_{(k)} \le t} \left( 1 - \dfrac{d_k}{n_k} \right)\) Estimateur non paramétrique de la fonction de survie basé sur les événements observés et le nombre d’individus à risque.
Variance de Greenwood \(\widehat{\text{Var}}\left[\hat{S}(t)\right] = \hat{S}(t)^2 \sum_{T_{(k)} \le t} \dfrac{d_k}{n_k (n_k - d_k)}\) Variance estimée de Kaplan-Meier selon la formule de Greenwood.
Intervalle de confiance log à 95 % \(\text{IC}_{95\%}(t) = \hat S(t) \pm 1.96 \sqrt{\widehat{\text{Var}}[\hat S(t)]}\) Intervalle de confiance construit via une transformation logarithmique de S(t), qui est la méthode ‘plain’ de survfit().

3.3.1 - Graphique Kaplan-Meier

Pour la courbe sans censure, la probabilité de rester marié diminue progressivement avec l’augmentation de la durée du mariage. Par exemple, après 1 an de mariage, les couples ont environ 82 % de rester mariés, mais cette proportion tombe à 32 % après 10 ans et approche de zéro après 36 à 40 ans. Les intervalles de confiance sont étroits au début car beaucoup de couples sont encore à risque. Comme les individus censurés ne sont pas pris en compte, cette estimation sous‑estime la survie réelle.

Pour la courbe avec censure, la probabilité de rester marié est plus élevée car les couples censurés (par exemple ceux pour lesquels on ne connaît pas la fin du mariage) ne sont pas considérés comme ayant divorcé. Après 1 an de mariage, les couples ont une chance de 93 % de rester mariés. Cette proportion descend à 64 % après 10 ans et à environ 10 % après 40 ans. Les intervalles de confiance s’élargissent légèrement avec la durée du mariage car moins de couples restent à risque. Cette estimation correspond à l’estimateur de Kaplan‑Meier et reflète mieux la survie réelle des mariages dans la population étudiée.

En résumé, sans censure, la courbe montre la survie brute et sous-estime la durée réelle des mariages, tandis que la courbe avec censure ajuste pour les mariages dont la fin n’a pas été observée, donnant une estimation plus fiable de la probabilité de rester marié dans le temps.

3.4 Estimateur de survie avec covariables

Dans cette section, nous évaluons la fonction de survie en fonction de différentes variables explicatives afin de déterminer si certains groupes ont une influence sur la courbe de survie de Kaplan–Meier.

Nous réaliserons des tests d’hypothèses pour vérifier si les courbes de survie diffèrent significativement entre les groupes.

En particulier, nous utiliserons des tests tels que le Log-Rank ou le test de Petro & Prentice, selon le type de covariable étudiée.

3.4.1 Cas général de comparaison de plusieurs groupes

On considère \(k\) groupes de survie :

\[ S_1(t),\dots,S_k(t) \]

Hypothèses globales :

\[ \begin{cases} H_0 : S_1(t)=\dots=S_k(t), & \forall t \\ H_1 : \exists r,s,t \text{ tels que } S_r(t)\neq S_s(t) \end{cases} \]

Soient les temps distincts de décès :

\[ T_1 < \dots < T_N \]

Pour chaque temps \(T_i\) et chaque groupe \(g=1,\dots,k\) :

  • \(d_{gi}\) = nombre de décès observés dans le groupe \(g\) au temps \(T_i\)
  • \(n_{gi}\) = nombre d’individus à risque dans le groupe \(g\) juste avant \(T_i\)

Sommes sur les groupes :

\[ d_i = \sum_{g=1}^k d_{gi}, \quad n_i = \sum_{g=1}^k n_{gi} \]

Variables aléatoires associées :

\[ D_{gi} \text{ dont la valeur observée est } d_{gi} \]

On empile les \(k\) nombres de décès observés au temps \(i\) :

\[ \mathbf{D}_i = \begin{pmatrix} D_{1i}\\ \vdots\\ D_{ki} \end{pmatrix} \in \mathbb{R}^k \]

Sous \(H_0\), l’espérance conditionnelle :

\[ \mathbb{E}(\mathbf{D}_i) = \frac{d_i}{n_i} \begin{pmatrix} n_{1i} \\ \vdots \\ n_{ki} \end{pmatrix}, \quad \mathbb{E}(D_{gi}) = \frac{n_{gi} d_i}{n_i} \]

\[ \mathbf{V}_i = \mathbb{V}(\mathbf{D}_i) = \frac{n_i - d_i}{n_i - 1} \cdot \frac{d_i}{n_i^2} \Big( \begin{pmatrix} n_{1i} & n_{2i} & \dots & n_{ki} \end{pmatrix} I_k - \frac{1}{n_i} \begin{pmatrix} n_{1i} & n_{2i} & \dots & n_{ki} \end{pmatrix}^\top \begin{pmatrix} n_{1i} & n_{2i} & \dots & n_{ki} \end{pmatrix} \Big) \]

Vecteur score log-rank généralisé :

\[ \mathbf{U} = \sum_{i=1}^N w_i (\mathbf{D}_i - \mathbb{E}(\mathbf{D}_i)) \in \mathbb{R}^k \]

Matrice de variance :

\[ \mathbf{V} = \sum_{i=1}^N w_i^2 \mathbf{V}_i \in \mathbb{R}^{k\times k} \]

Statistique de test :

\[ \chi^2 = \mathbf{U}^\top \mathbf{V}^{-1} \mathbf{U} \sim \chi^2_{k-1} \]

Ainsi selon le test, on a :

  • Log-Rank lorsque pour tout i \(\in\) [1, N], \(w_i = 1\)
  • Petro & Prentice lorsque \(w_i = \prod_{k=1}^{i} \frac{n_k}{n_k + d_k}\)

3.4.2 Exemple selon deux groupes (k = 2)

Dans notre cas de figure, au dessus, on pose deux groupes :

  • Groupe 1 : sans problème de santé mentale
  • Groupe 2 : avec problème de santé mentale

On évoque donc les hypotèses suivantes :

\[ \begin{cases} H_0 : S_1(t) = S_2(t), & \forall t \\ H_1 : S_1(t) \neq S_2(t), & \exists t \end{cases} \]

Soit i \(\in\) [1, 40], on a :

Vecteur de divorce :

\[ \mathbf{D}_i = \begin{pmatrix} D_{1i} \\ D_{2i} \end{pmatrix}, \quad \mathbb{E}(\mathbf{D}_i) = \frac{d_i}{n_i} \begin{pmatrix} n_{1i} \\ n_{2i} \end{pmatrix} \]

Variance du premier composant (groupe 1) :

\[ \mathbb{V}(D_{1i}) = \frac{(n_i - d_i)}{n_i - 1} \frac{d_i n_{1i} n_{2i}}{n_i^2} \]

Vecteur score réduit à une dimension :

\[ U = \sum_{i=1}^{40} w_i (D_{1i} - E(D_{1i})) \]

Variance :

\[ \text{Var}(U) = \sum_{i=1}^{40} w_i^2 \mathbb{V}(D_{1i}) \]

Statistique de test log-rank :

\[ \chi_0^2 = \frac{U^2}{\text{Var}(U)} \sim \chi_1^2 \]

On effectue le test selon le test de log-rank :

## Call:
## survdiff(formula = Surv(time, event) ~ group, rho = 0)
## 
##                                 N Observed Expected (O-E)^2/E (O-E)^2/V
## group=mental_health_issue    1019      443      388      7.70      10.1
## group=no_mental_health_issue 3981     1548     1603      1.86      10.1
## 
##  Chisq= 10.1  on 1 degrees of freedom, p= 0.002

On effectue le test selon le test de Peto & Prentice :

## Call:
## survdiff(formula = Surv(time, event) ~ group, rho = 1)
## 
##                                 N Observed Expected (O-E)^2/E (O-E)^2/V
## group=mental_health_issue    1019      328      294      4.08      6.62
## group=no_mental_health_issue 3981     1143     1178      1.02      6.62
## 
##  Chisq= 6.6  on 1 degrees of freedom, p= 0.01

Le test du Log-Rank (rho = 0) donne une statistique de Chi-2 égale à 10,1 avec 1 degré de liberté et une p-value de 0,002. Comme la p-value est inférieure au seuil de 0,05, l’hypothèse nulle \(H_0\) d’égalité des fonctions de survie entre les deux groupes peut être rejetée. On en conclut qu’il existe une différence significative entre la survie des individus avec et sans problème de santé mentale.

Le test de Petro & Prentice (rho = 1), qui pondère davantage les événements précoces, fournit une statistique de Chi-2 de 6,62 avec 1 degré de liberté et une p-value de 0,01. Cette p-value étant également inférieure à 0,05, le résultat confirme que la différence observée entre les groupes est significative, même en mettant un poids plus important sur les événements survenus tôt.

3.4.3 Exemple selon plusieurs groupes (k = 4 > 2)

Dans notre cas de figure, au dessus, on pose deux groupes :

  • Groupe 1 : Bachelor
  • Groupe 2 : High School
  • Groupe 3 : Master
  • Groupe 4 : PhD

On évoque donc les hypotèses suivantes :

\[ \begin{cases} H_0 : S_1(t) = S_2(t) = S_3(t) = S_4(t) , & \forall t \\ H_1 : S_1(t) \neq S_2(t\neq S_3(t) \neq S_4(t), & \exists t \end{cases} \]

On obtient donc selon le test du log-rank :

## Call:
## survdiff(formula = Surv(time, event) ~ group, rho = 0)
## 
##                       N Observed Expected (O-E)^2/E (O-E)^2/V
## group=Bachelor     2069      802    833.8    1.2139     2.271
## group=Hight School 1513      605    591.5    0.3087     0.471
## group=Master        963      402    396.4    0.0786     0.105
## group=PhD           224      102     89.3    1.8127     2.013
## 
##  Chisq= 3.6  on 3 degrees of freedom, p= 0.3

On obtient donc selon le test de Peto & Pretice :

## Call:
## survdiff(formula = Surv(time, event) ~ group, rho = 1)
## 
##                       N Observed Expected (O-E)^2/E (O-E)^2/V
## group=Bachelor     2069    593.6    616.2   0.82612   1.92530
## group=Hight School 1513    450.0    440.1   0.22186   0.42204
## group=Master        963    288.0    288.7   0.00172   0.00285
## group=PhD           224     78.3     64.9   2.75899   3.80173
## 
##  Chisq= 5  on 3 degrees of freedom, p= 0.2

Le test du Log-Rank (rho = 0) donne une statistique de Chi-2 égale à 3,6 avec 3 degrés de liberté et une p-value de 0,3. Comme la p-value est supérieure au seuil de 0,05, l’hypothèse nulle H0 d’égalité des fonctions de survie entre les niveaux d’éducation ne peut pas être rejetée. On en conclut qu’il n’existe pas de différence significative de survie selon le niveau d’éducation.

Le test de Peto & Prentice (rho = 1), qui pondère davantage les événements précoces, fournit une statistique de Chi-2 de 5 avec 3 degrés de liberté et une p-value de 0,2. Cette p-value étant également supérieure à 0,05, le résultat confirme qu’aucune différence significative de survie n’est observée entre les niveaux d’éducation, même en mettant un poids plus important sur les événements survenus tôt.

3.5 - Estimateur de Nelson-Aalen

L’estimateur de Nelson-Aalen permet d’estimer le risque cumulatif \(h(t)\) dans le cadre de données censurées.

On définit :

  • \(H(t) = \mathbb{P}(T > t) = \mathbb{P}(X > t, C > t) = \mathbb{P}(X > t)\mathbb{P}(C > t)= S(t) G(t)\)\(G\) est la fonction de survie de la censure \(C\)

  • \(H_1(t) = \mathbb{P}(T > t, \delta = 1) = \mathbb{P}(X > t, C > X)\)

On peut écrire \(H_1(t)\) en fonction de la densité \(f(u)\) de \(X\) et de \(G(u)\) :

\[ \begin{aligned} H_1(t) &= \mathbb{P}(X > t,\, C > X) \\ &= \mathbb{E}\big[ \mathbf{1}_{\{X > t\}} \cdot \mathbf{1}_{\{C > X\}} \big] \\[6pt] &= \mathbb{E}\Big[ \mathbf{1}_{\{X > t\}} \, \mathbb{E}\big[\mathbf{1}_{\{C > X\}}\mid X\big] \Big] \\[6pt] &= \mathbb{E}\big[ \mathbf{1}_{\{X > t\}} \, \mathbb{P}(C > X \mid X) \big] \\[6pt] &= \mathbb{E}\big[ \mathbf{1}_{\{X > t\}} \, G(X^-) \big] \\[6pt] &= \displaystyle \int_{t}^{\infty} G(u^-) \, f(u)\,du \\[6pt] &= - \displaystyle \int_{t}^{\infty} G(u^-) \, dS(u) \end{aligned} \]

On obtient donc :

\[ dH_1(t) = G(t^{-})dS(t) \]

Et donc par le temps on obtient :

\[ \frac{dH_1(t)}{dt} = \frac{G(t^{-})dS(t)}{dt} \]

ce qui donne mathématiquement :

\[ H_1'(t) = G(t^{-})S'(t) \]

Ainsi on a :

\[ \begin{aligned} \hat{H}_{NA}(t) &= \displaystyle \int_{0}^{t} h(u) \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{S'(u)}{S(u)} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{\frac{H_1(u)}{G(u^{-})}}{\frac{H(u)}{G(u)}} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{H_1(u)}{H(u)}\frac{G(u)}{G(u^{-})} \, du \\[2mm] &= \displaystyle \int_{0}^{t} -\frac{H_1(u)}{H(u)} \, du \end{aligned} \]

Un estimateur naturel s’obtient en remplaçant les fonctions \(H\) et \(H_1\) par leurs équivalents empiriques (calculables car les variables \(T\) et \(\delta\) sont observées):

\[ \hat{H}(u) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u\}}, \quad \hat{H}_1(u) = \frac{1}{n} \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u, \delta_i = 1\}} \]

L’estimateur de Nelson-Aalen est alors donné par :

\[ \hat{H}_{NA}(t) = \displaystyle \int_{0}^{t} - \frac{\displaystyle \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u, \delta_i = 1\}}}{\displaystyle \sum_{i=1}^{n} \mathbf{1}_{\{T_i > u\}}} \, du \]

Comme \(T\) est à temps discret, l’intégrale devient une somme sur les temps d’événement distincts , et on définit alors pour chaque temps d’événement \(t_i\) :

\[ d_i = \sum_{j=1}^{n} \mathbf{1}_{\{T_j = t_i, \delta_j = 1\}}, \quad n_i = \sum_{j=1}^{n} \mathbf{1}_{\{T_j \ge t_i\}}. \]

Ce qui donne :

\[ \hat{H}_{NA}(t) = \sum_{t_i \le t} \frac{d_i}{n_i}. \]


Une autre façon de calculer la fonction de risque cumulée et de passer par l’estimateur de beslow.

Rappel : l’estimateur de Kaplan–Meier de la fonction de survie s’écrit, pour des temps d’événement distincts \(t_1<\dots<t_m\), \[ \hat{S}(t)=\prod_{t_i\le t}\left(1-\frac{d_i}{n_i}\right), \]\(d_i\) est le nombre d’événements au temps \(t_i\) et \(n_i\) le nombre d’individus à risque juste avant \(t_i\).

En utilisant la relation \[ H(t)=-\log S(t), \] on obtient l’estimateur de Breslow du risque cumulé : \[ \hat{H}_{\text{Breslow}}(t) = -\log\big(\hat{S}(t)\big) = -\log\!\left(\prod_{t_i\le t}\left(1-\frac{d_i}{n_i}\right)\right) = -\sum_{t_i\le t} \log\!\left(1-\frac{d_i}{n_i}\right). \]

Pour des fractions \(d_i/n_i\) petites, on utilise l’approximation \(\log(1-x)\approx -x\) pour \(x\) proche de \(0\). Ainsi \[ \sum_{t_i\le t}\log\!\left(1-\frac{d_i}{n_i}\right) \approx \sum_{t_i\le t}\frac{d_i}{n_i}, \] Ce qui montre que l’estimateur de Breslow est proche (et asymptotiquement équivalent) à l’estimateur de Nelson–Aalen \(\hat{H}_{NA}(t)=\sum_{t_i\le t}\dfrac{d_i}{n_i}\) lorsque les sauts sont petits.

📊 Méthodes d’estimation du risque cumulatif : Nelson-Aalen et Breslow
Méthode Formule Variance Description
Nelson-Aalen \(\hat{H}_{NA}(t) = \sum_{t_k \le t} \dfrac{d_k}{n_k}\) \(\text{Var}(\hat{H}_{NA}(t)) = \sum_{t_k \le t} \dfrac{d_k}{n_k^2}\) Estimateur non paramétrique basé sur les événements observés et le nombre de sujets à risque.
Breslow \(\hat{H}_{\text{Breslow}}(t) = - \sum_{t_k \le t} \log\left(1 - \dfrac{d_k}{n_k}\right)\) \(\text{Var}(\hat{H}_{\text{Breslow}}(t)) = \sum_{t_k \le t} \dfrac{d_k}{n_k(n_k - d_k)}\) Estimateur du risque cumulatif dérivé de \(H(t) = -\log(S(t))\) via l’estimateur de Kaplan-Meier.

3.5.1 Graphique de la fonction du risque cumulatif

Les courbes de risque cumulatif sans censure montrent le cumul des divorces en considérant tous les couples comme observés jusqu’à la fin. Pour Nelson-Aalen, le risque cumulatif commence à environ 0,18 après un an, atteint 0,54 après cinq ans et dépasse 5 après quarante ans. Cette courbe reflète le risque brut et tend à surestimer le risque réel, car elle ne tient pas compte des couples censurés. Pour Breslow sans censure, le risque cumulatif est légèrement plus élevé à chaque instant et dépasse 4 après quarante ans, reflétant également une estimation brute du risque de divorce. La courbe ne se termine pas toujours de manière définie à la fin, ce qui est normal puisque le calcul implique le logarithme de la survie et log(0) n’est pas défini.

Les courbes avec censure corrigent le calcul en tenant compte des couples dont on ne connaît pas la fin du mariage. Pour Nelson-Aalen avec censure, le risque cumulatif augmente plus lentement, commençant à environ 0,068 après un an et atteignant environ 2,1 après quarante ans. Les intervalles de confiance s’élargissent progressivement avec le temps car moins de couples restent à risque. Pour Breslow avec censure, le risque cumulatif commence à environ 0,07 après un an et atteint 2,29 après quarante ans.

On voit notamment pour chacune des courbes une augmentation du risque pour la période de 40 ans de durée de marriage. Cela peut s’expliquer de par une plus grande fréquence à 40 ans de durée de marriage parmi les années de 30 ans à 40 ans de durée de marriage selon la distribution de la variable marriage_duration_years.

En résumé, les estimateurs sans censure surestiment le risque cumulatif de divorce, tandis que les estimateurs avec censure donnent une estimation plus réaliste. Nelson-Aalen et Breslow donnent des courbes similaires, Breslow étant légèrement plus lisse et pouvant présenter des valeurs non définies si la survie estimée devient nulle.

3.5.2 - Graphique de la fonction du risque instanné (Nelson-Aalen)

Au début du mariage, le risque instantané de divorce est relativement élevé, avec un pic la première année (0,068 avec censure et 0,178 sans censure). Cela traduit une période initiale plus critique où les couples doivent s’adapter à la vie à deux. Ensuite, le risque se stabilise mais on note des petites augmentations autour de 5 à 7 ans, correspondant possiblement aux premières tensions liées à la vie commune et à l’arrivée éventuelle des enfants.

Une autre période où le risque augmente légèrement se situe entre 25 et 32 ans de mariage, avec des valeurs autour de 0,057–0,058 avec censure et 0,133–0,156 sans censure, reflétant des divorces plus tardifs dus à potentiellement à l’accumulation de tensions sur le long terme.

Enfin, vers la fin de l’observation, la fonction de risque montre des valeurs très élevées, notamment à 40 ans (0,455 avec censure et 1 sans censure), mais il s’agit d’un artefact dû au faible nombre de couples restant à risque et aux calculs de la fonction, et non d’un risque réellement plus élevé dans la population. On observe donc des périodes à risque plus marqué au début, quelques fluctuations intermédiaires et un pic final artificiel.